F4: Jämföra fördelningar, tidsserier, och transformationer.
Hittills har vi pratat om
- För att undersöka sambandet mellan en numerisk variabel och en kategorisk variabel kan vi studera fördelningen av den numeriska variabeln betingat på den kategoriska variabeln
- Med två kategoriska variabler kan vi ställa frågor som:
- Är andelen BMW-förare som kör för fort större än motsvarande för Toyota-förare?
- Med en numerisk och en kategorisk variabel kan vi ställa frågor som:
- Hur snabbt kör BMW-förare i genomsnitt på en viss vägsträcka?
- Som jämförelse, hur snabbt kör Toyota-förare i genomsnitt på samma vägsträcka?
- Vi undersöker alltså hastigheten (numerisk variabel) betingat på bilmärket (kategorisk variabel)
Figur 4.2 i De Veaux et al. (2021) visar medelvindhastigheten separat för två säsonger: vår/sommar och höst/vinter
Jämfört med fördelningen för hela året kan vi se att
Vi använder det vi vet om låddiagram för att utläsa information om vindstyrkan i västra Massaschussets:
Vi använder det vi vet om låddiagram för att utläsa information om vindstyrkan i västra Massaschussets:
På föreläsning 3 tog vi upp frågan om skillnader mellan grupper i ett datamaterial
Vi diskuterade hur vi kan bedöma om skillnaderna beror på slumpen eller på att det finns ett mer generellt samband
Som exempel använde vi Titanics livbåtar, och tittade på hur livbåtsplatser fördelades mellan passagerare i olika klasser
Till slut ställde vi upp hypotesen att livbåtsplatserna var slumpmässigt fördelade och oberoende av biljetklass, och expreimenterade lite
Vi upprepade ett experiment där vi lät platserna i livbåtarna fördela sig slumpvis mellan alla passagerare, som om vår hypotes var sann
Vi vill nu göra något liknande, men denna gång vill vi undersöka om skillnaden mellan två numeriska fördelningar beror på slumpen eller inte
Vi antar att vi mäter hastigheten för bilar som kör längs en given gata, och fokuserar särskilt på BMW och Toyota
Vi kan sedan illustrera de två hastighetsfördelningarna (en för BMW och en för Toyota) med två låddiagram
Vi gör ett tankeexperiment: Anta att vi inte känner till vilket bilmärke som är kopplat till vilken hastighet i vår data
Istället för att dela upp bilarna efter märke, delar vi slumpmässigt in dem slumpvis i två grupper som vi kallar A och B
Eftersom indelningen är slumpmässig, kommer hastigheten nu att vara oberoende av vilken grupp bilarna hamnar i
Efter att varje bil, som har en viss hastighet, slumpvis har placerats i en grupp räknar vi ut medelhastigheten för vardera grupp
Vi noterar skillnaden i medelhastighet mellan de två grupperna (Medelvärdet för grupp A minus medelväldet för grupp B).
Nu upprepar vi detta slumpexperiment ett stort antal
Figur 4.5 i De Veaux et al. (2021) visar utfallet av 10,000 sådana experiment
Skillnaden som uppmättes i studien (2.53 mph) är markerad med en triangel
Vilka slutsatser kan vi dra?
Triangeln ligger långt till höger om vad som rimligtvis skulle kunna förväntas om skillnaden bara berodde på slumpen
Skillnaden är mycket större än vad som vore rimligt om slumpen styrde
Vi lutar alltså åt att BMW-förare faktiskt kör snabbare
Vi har hittills tittat på diagram som på olika sätt sammanfattar numeriska värden, så som histogram och låddiagram
Ibland vill vi ha en bild som visar varje observation. Det kan vi åstadkomma med ett spridningsdiagram (en: scatter plot)
Figur 4.6 i De Veaux et al. (2021) visar medelvindstyrkan för varje dag 2011
Spridningsdiagrammet från tidigare är intressant av annan anledning
På y-axeln ser vi medelvindstyrkan förr en given dag
På x-axeln ser vi hur många dagar in på året vi är
Observationerna är alltså ordnade i tidsordning från vänster till höger, och därmed illustrerar diagrammet en tidsserie
säsongsvariation är ett mönster som upprepar sig över tydligt avgränsade tidsperioder (vanligtvis år)
Säsongsvariation syns ofta i exempelvis tidsserier över väder och försäljning (i regel högre temperaturer på sommaren och lägre på vintern, etc)
Bilden ned visar temperaturer insamlade mellan 1 februari 2008 och 1 maj 2022 vid tre svenska flygplatser (Bild från Villani et al. (2022))
Vi motiverar transformation av variabler med hjälp av en forskningsstudie
Studien undersöker om exponering för rökning påverkade nivån av kotinin i blodet (nedbrytningsprodukt av nikotin)
Deltagarna i studien delades in i tre grupper:
Vi har alltså en kategorisk variabel (grupptillhörighet) och en numerisk variabel (mängd kotonin i blodet, nanogram/ml)
När värden är ojämnt fördelade kan det svara svårt att läsa ett diagram – i detta fall är en stor del värdena ihopklämda i botten av diagrammet
Det är omöjligt att se skillnaden mellan passiva rökare (ETS) och de som inte exponerats för rök (No ETS)
\[ y = e^x \Longleftrightarrow \log(y) = x \]
\[ y = e^{log(y)} \] - Uttrycket \(e\) är en konstant med ett värde som är ungefär 2.7.
\[a = e^{\log(a)} = e^{1.2} = 3.32\]
Vi ser att de värden som transformerats tillbaka är våra ursprungliga värden
Notera att \(e^x\) i R skrivs exp(x)
Logaritmering är användbart i otroligt många statistiska tillämpningar
Men det är bara en av många transformationer som vi kan ha nytta av
När vi kommer till avsnittet om regression kommer transformering att spela en större roll
Om du tycker att transformationer verkar jobbigt, oroa dig inte!
På den här kursen kommer transformationer inte handla om matematik, utan mer om att pröva sig fram
Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj